菜鸟团一周文献推荐(No.43)
本期文献推荐关键词:
泛基因组学, 蛋白质结构预测和设计, 数据标准化方法, 单细胞多组学, 蛋白质组学
供稿人:lakeseafly
一句话评价
泛基因组学时代的来临:从细菌到动植物的应用
文章信息
题目:Pangenomics Comes of Age: From Bacteria to Plant and Animal Applications
杂志:Trends in Genetics
时间:Dec 2019
链接: https://doi.org/10.1016/j.tig.2019.11.006
figure
文章介绍:
亮点
泛基因组由在所有个体中发现的核心基因/序列和仅在某些个体中发现的辅助基因/序列组成。
泛基因组的概念在原核生物研究中被引入后,已被证明适用于生命之树,包括原生生物,真菌,植物和动物。
对细菌,真菌,植物和动物全基因组的研究允许鉴定参考基因组中缺失的大量辅助基因/序列。辅助基因通常在与信号传导和毒力/防御反应有关的功能中过分代表。
从仅使用一个基因组到一个泛基因基因组作为参考,将改善对关键性状相关基因的变异调用和鉴定。
泛基因组是指在整个物种或种群中而不是单个个体中发现的基因组序列的集合。该序列可以是核心的,存在于所有个体中,也可以是附属的(可变的或可有可无的),仅在个体的一个子集中存在。虽然泛基因组学研究最初是在细菌物种中进行的,但是基因组测序和组装方法的发展已允许构建用于真核生物,真菌,植物和动物的泛基因组,包括两个大规模的人类泛基因组计划。
最后简单说说为什么要推荐这边综述,那就是因为这是我们实验室发的一篇文章。该综述从细菌,真菌,植物到人类动物的不同角度讲述了泛基因组的发展。并且提出了一系列未来泛基因前沿视角:泛基因组与重复序列的关系,核心和辅助基因网络,还有核心基因组的鉴定。
供稿人:Christine
一句话评价
蛋白质结构预测和设计的研究进展
题目:Advances in protein structure prediction and design
杂志:Nature Reviews Molecular Cell Biology
时间:2019 Aug 15
链接: https://www.nature.com/articles/s41580-019-0163-x
文章介绍:
大多数基因需要以蛋白质的形式行使功能,更准确地说是以特定的三维构象。根据氨基酸序列预测蛋白质三维结构是计算生物学家一直以来的努力目标,随着蛋白质序列和结构数据库的不断丰富,再加上计算能力的提高,蛋白质三维结构的预测和改造技术有了很大进展,本文就此做了综述:
关于结构预测,文章介绍了基于模板的同源建模,但重点放在从头预测上,提到了用机器学习在结构预测上的一些应用,目前还不多,难点在于找到合适的靶蛋白信息作为输入。
蛋白质结构设计也分为基于模板和从头设计,也包括蛋白序列的优化。
文章还花了很大篇幅介绍了蛋白质设计的应用,比如:提高蛋白质稳定性,控制结合特异性,构建新的互作界面、配体结合位点、催化位点,设计特定构象的蛋白质等等。这个领域目前还面临这很大的挑战,文末作者还提到,随着数据的丰富,很希望机器学习和模式识别能在结构设计上有所突破。
推荐理由:因为“蛋白质结构设计”听起来很有意思,想简单了解一下,而这篇文章没有复杂的理论公式,主要只是介绍这个领域的研究内容和例子。
供稿人:思考问题的熊
一句话评价
跨平台的基因表达数据标准化方法
文章信息
题目:MatchMixeR: A Cross-platform Normalization Method for Gene Expression Data Integration
杂志:Bioinformatics
时间:06 January 2020
链接: https://doi.org/10.1093/bioinformatics/btz974
figure
文章介绍:
在平时的很多交流过程中,发现很多实验室还在大量使用芯片等公用数据的表达矩阵,而且由于样本量和取材难度的限制,很多分析就需要结合不同平台得到的表达数据进行后续分析。目前已经有了几种跨平台标准化方法来消除平台之间的系统差异,但它们也可能会消除数据集之间有意义的生物学差异。
本文的作者表示他们开发了一种和现有方法相比更加好的跨平台标准化方法:MatchMixeR。
通过混合线性效应模型 LMER对平台差异进行建模,并从不同平台上测量的同一细胞系或组织的基因表达谱中进行估计。然后,生成的模型可用于消除其他数据集中的平台差异。通过使用 LMER在参数估计中实现了更好的偏差-方差权衡。
GitHub 地址 https://github.com/dy16b/Cross-Platform-Normalization 是一个相对很小型的 R 包。
供稿人:六六
一句话评价
单细胞多组学综述
文章信息
题目:Single-cell multimodal omics: the power of many
杂志:Nature Methods
时间:06 January 2020
链接:https://www.nature.com/articles/s41592-019-0691-5
figure
单细胞多组学分析的方法
文章介绍:
这是 Ren Bing老师实验室的一篇评论性文章,随着单细胞技术的进步,使得对基因调控规律的研究具有前所未有的分辨率和规模,开发单细胞多组学工具是理解生物系统内部机理的另一个重要步骤。这篇文章包括两个方面,一是概述了目前单细胞多组学分析的技术,二是讨论了目前单细胞技术发展中挑战和机遇。
单细胞多组学技术
这里将单细胞多组学技术又分为两类:一类是一次可以评估一个细胞中多种模式组学的变化,这种方法的局限性是通量和相对高的价格(上图中蓝色点标记的方法);另一类是通过droplet或DNA条形码的策略,可以同时处理数千到数百万个细胞,实现了高可扩展性,降低了成本(上图中棕色点标记的方法)。每一类都包含有不同组学的组合,如:基因组和转录组测序的组合技术有:G&T-seq,DR-seq等;甲基化与基因组和转录组的组合技术:scM&T-seq, scTrio-seq, snmCT-seq; 染色质与甲基化或转录组的组合技术:scNOMe-seq, scCOOL-seq, snNMT-seq; 染色质可及性与转录组:scCAT-seq, ATAC-RNA-seq等;染色质三维结构与甲基化的组合:scMethyl-HiC, snm3C-seq.
单细胞多组学技术的挑战和机遇
数据稀疏性问题:提高检测灵敏度和覆盖率
组蛋白标记或转录因子结合和基因表达的联合检测将提高对基因调控网络的理解
联合分析单个细胞中的转录物和蛋白质将揭示转录物和蛋白质丰度的动态关系
将空间转录组学工具扩展到表观基因组分析将有助于复杂组织中分子和细胞网络的分离
供稿人:Robin
一句话评价
肺鳞癌的蛋白质组学综合分析
文章信息
题目:Proteogenomic landscape of squamous cell lung cancer
杂志:NATURE COMMUNICATIONS
时间:2019-08-08
链接:https://doi.org/10.1038/s41467-019-11452-x
figure
文章介绍:
肺鳞癌的基因组和转录组改变如何影响肺鳞癌蛋白质组的功能尚未完全了解。作者整合了108名鳞状细胞肺癌(SCC)患者的CNV,体细胞突变,RNA测序和表达蛋白质组学,从而确定了三种蛋白质组学亚型,其中两种:炎症亚型和Redox亚型(oxidation-reduction)占87%的肿瘤;第三种为混合型。炎症亚型有更高水平中性粒细胞,B细胞和单核细胞,并表达更多的PD-1。Redox亚型富含氧化还原和谷胱甘肽硫酮途径,并在3q2位点具有更多NFE2L2 / KEAP1拷贝数扩增。虽然作者发现目前的蛋白质组亚型与患者生存率无显著的统计学意义;然而,在炎症中较常见的富含B细胞的三级淋巴结结构与更好的生存率相关。此外,作者还确定氧化还原中的代谢靶点(TP63,PSAT1和TFRC)。这篇文章为肺鳞癌生物学提供了丰富的多组学资源。作者还在Github上公布了数据预处理和可视化的代码 (https://github.com/pstew/ proteogenomics_scc)有兴趣的小伙伴可以参考学习一下。
记得投票哦
阅读原文关注
「生信菜鸟团-每周文献分享」专栏知识库
你可能会需要: